Минеев Максим #243

mineevmaxim · 2024-11-25T17:32:03Z

@masssha1308

Lexer, parser, converter

mineevmaxim · 2024-12-02T19:08:29Z

Комментарий к архитектуре:
У нас есть три главные сущности:

Lexer
Parser
Converter
По сути всё работает так:
Строка MD -> (Lexer) > Токены -> (Parser) -> Абстрактное синтаксическое дерево AST -> (Converter) -> строка HTML

Схема архитектуры и зависимостей:

masssha1308 · 2024-12-10T06:39:49Z

cs/Markdown/MarkdownToHtmlConverter.cs

+
+public class MarkdownToHtmlConverter(ILexer lexer, IParser parser)
+{
+    public ILexer Lexer { get; } = lexer;


можно сделать private

masssha1308 · 2024-12-10T06:47:12Z

cs/Markdown/Program.cs

+    {
+        Console.WriteLine("Hello, World!");
+    }
+}


кажется нет необходимости и можно убрать

masssha1308 · 2024-12-10T07:14:19Z

cs/Markdown/Tokens/Token.cs

+
+namespace Markdown.Tokens;
+
+public abstract class Token(int position) : IToken


А зачем интерфейс для абстрактного класса? Интерфейс нужен для того чтобы описать поведение, но ведь абстрактный класс тоже это делает

masssha1308 · 2024-12-10T07:17:17Z

cs/Markdown/Tokens/Token.cs

+    public abstract string Value { get; }
+    public int Position => position;
+    public int Length => Value.Length;
+    public int GetIndexToNextToken() => Position + Length;


нет использований

masssha1308 · 2024-12-10T07:54:34Z

cs/Markdown/MarkdownLexer.cs

+    public List<IToken> Tokenize(string input)
+    {
+        position = 0;
+        var nestingStack = new Stack<string>();


Лучше position сделать локальной переменной чтобы была одинаковая логика работы с position, nestingStack, input

Если position сделать локальной переменной, то возникнет несколько неудобств:

Придется прокидывать текущую позицию практически во все функции, увеличится список параметров

Сейчас логика сдвига позиции находится максимально близко к самим "действиям", т.е. как только мы совершили какое-то действие (например, спарсили текст), мы сразу сдвигаем позицию в том же методе парсинга. Если будем передавать position в метод параметром, то нам придется либо передавать его ссылкой (ref), либо возвращать из метода необходимый сдвиг или еще как-то ухищряться, чтобы правильно сдвинуть position

Поэтому мне кажется, что более красиво и аккуратно будет оставить position полем класса, а чтобы сделать логику работы более одинаковой, можно вынести стек тоже полем класса и не передавать его каждый раз параметром (с инпутом так поступить не можем, потому что получем его параметром в методе, вынести инициализацию в конструктор тоже не можем, потому что нарушим контракт метода Tokenize и не сможем получать в конвертере не конкретную реализацию лексера, а интерфейс)

masssha1308 · 2024-12-10T08:18:29Z

cs/Markdown/MarkdownLexer.cs

+        position += 2;
+    }
+
+    private bool NextIsDoubleGround(string input) =>


Здесь напрашивается сделать инпут valueObject'ом и все эти методы перетащить туда

masssha1308 · 2024-12-10T08:24:05Z

cs/Markdown/MarkdownLexer.cs

+{
+    private int position;
+    private readonly List<IToken> tokens = [];
+    private const string DoubleGround = "__";


заметила что некоторые символы инициализированы дважды (например, DoubleGround в MarkdownLexer и в MarkdownParser). Исходя из этого предложение вынести эти константы в отдельный класс и использовать везде его

masssha1308 · 2024-12-10T09:17:34Z

cs/Markdown/MarkdownLexer.cs

+        stack.Push(Ground);
+    }
+
+    private void ParseItalicOrBoldAndAdvanceWhenStackHasOne(bool isSingleGround, bool isDoubleGround,


сейчас реализована такая логика, что мы кладем токен в стек и в зависимости от последующих токенов мы токен из стека можем убрать, что привело к усложнению кода (ParseItalicOrBoldAndAdvanceWhenStackHasOne, ParseItalicOrBoldAndAdvanceWhenStackHasTwo и т.д.).
можем ли мы анализировать последующие символы чтобы сразу добавлять корректные токены?

На самом деле в стек всегда сразу добавляются корректные токены (открывающие токены в соответствии с разрешенной вложенностью), но трудность заключается в следующем: в процессе лексического анализа нам надо правильно (хотя бы частично) обрабатывать вложенность, чтобы на этапе парсинга получать уже "правильный" набор токенов (___text___ должен парситься лексером в ['__', '_', 'text', '_', '__'], а не, например, в ['_', '__', 'text', '_', '__']). Чтобы решать проблемы с вложенностью, я, по аналогии с популярной задачей про валидность скобочной последовательности, собирался просто закидывать в стек открывающие теги, а когда встречаем закрывающий, то достаем открывающий из стека, но из-за того, что тег курсива явялется частью тега полужирного, добавлять и доставать открывающие теги оказалось не так уж "просто" и приходится проверять очень много условий.

Изначально вся логика обработки этой вложенности была написана в ParseItalicOrBoldAndAdvance, но метод вырос до +-150 строк кода и очень глубокой вложенностью if-ов, и, чтобы хоть немного его уменьшить и сделать более декларативным я разнес эту логику по разным функциям, но получились такие страшные названия (называл прямо "в лоб", ровно то, что делает функция, возможно можно было назвать более удачно). В итоге я так и не придумал что-то лучше, чтобы код был более понятным и не нагруженным, мне показалось, что в текущем состоянии функции получились в достаточной мере декларативными, но с очень длинными названиями (от этого избавиться мне не удалось)

Кажется большинство проблем бы решилось и код упростился, если бы в стек клали не строки (двойное или одинарное подчеркивание), а char (только одинарные подчеркивания)

Кажется большинство проблем бы решилось и код упростился, если бы в стек клали не строки (двойное или одинарное подчеркивание), а char (только одинарные подчеркивания)

Возможно, подумаю над этим

masssha1308 · 2024-12-10T09:18:49Z

cs/Markdown/MarkdownLexer.cs

+    private void ParseHeadingAndAdvance(string input)
+    {
+        if (NextIsSpace(input) && IsStartOfParagraph(input)) tokens.Add(new HeadingToken(position++));
+        else tokens.Add(new TextToken(position, "#"));


лучше константу заиспользовать

masssha1308 · 2024-12-11T12:23:39Z

cs/Markdown/MarkdownLexer.cs

+    }
+
+    private void ParseItalicOrBoldAndAdvanceWhenStackHasOne(bool isSingleGround, bool isDoubleGround,
+        bool isTripleGround,


вместо булевых флагов можно передавать int

masssha1308 · 2024-12-11T12:24:55Z

cs/Markdown/MarkdownLexer.cs

+        var isDoubleGround = input.NextIsGround(position);
+        var isTripleGround = input.NextIsDoubleGround(position);
+        var isSingleGround = !isTripleGround && !isDoubleGround;
+        if (stack.Count == 0) ParseItalicOrBoldAndAdvanceWhenStackEmpty(isSingleGround, isTripleGround, stack);


можно заменить на switch

mineevmaxim added 5 commits November 25, 2024 22:23

Базовая архитектура

e93a708

Доработка архитектуры

c47ccc8

Lexer

4452683

Lexer, Parser, Converter + Тесты

f01e8e5

Merge pull request #1 from mineevmaxim/lexer

d6a5ead

Lexer, parser, converter

masssha1308 reviewed Dec 10, 2024

View reviewed changes

mineevmaxim added 3 commits December 10, 2024 18:49

Избавился от IToken и HetIndexToNextToken. Сделал Markdown библиотекой

d932240

Вынес константы для парсера и лексера в отдельный класс

4490d82

Вынес input лексера в ValueObject

cdc67f4

masssha1308 reviewed Dec 11, 2024

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Минеев Максим #243

Минеев Максим #243

mineevmaxim commented Nov 25, 2024

mineevmaxim commented Dec 2, 2024

masssha1308 Dec 10, 2024

masssha1308 Dec 10, 2024

masssha1308 Dec 10, 2024

masssha1308 Dec 10, 2024

masssha1308 Dec 10, 2024 •

edited

Loading

mineevmaxim Dec 10, 2024

masssha1308 Dec 10, 2024

masssha1308 Dec 10, 2024

masssha1308 Dec 10, 2024

mineevmaxim Dec 10, 2024

masssha1308 Dec 11, 2024

mineevmaxim Dec 12, 2024

masssha1308 Dec 10, 2024

masssha1308 Dec 11, 2024

masssha1308 Dec 11, 2024


		namespace Markdown.Tokens;

		public abstract class Token(int position) : IToken

Минеев Максим #243

Are you sure you want to change the base?

Минеев Максим #243

Conversation

mineevmaxim commented Nov 25, 2024

mineevmaxim commented Dec 2, 2024

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

masssha1308 Dec 10, 2024 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

masssha1308 Dec 10, 2024 •

edited

Loading